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@ Extremschmalband-Obertragungssystem 

Ein Ubertragungssystem an dessen Enden jeweils eine 
Vorrichtung zum Analysieren menschlicher Sprache und 
zum Vergleichen j edes Wortes mit vorgespejcherten Wor- 
tern zur Wort- und Sprechererkennung vorgesehen ist, wo- 
bei die Nachricht dann mit ch^arakteristischen Eigenschaften. 
der Stimme des Sprechers drgjta lisiey ein Signal 

zur Obertragung mit einer GeschwindigkefFvon etwa 75 Bit 
pro Sekunde gebildet wird, und eine Obertragung der digita- 
lisierten Nachricht zu einem entfernten Terminal erfolgt, das 
diese Nachricht in eine gesprochene Nachricht in der synte- 
tisierten Stimme des ursprunglichen Sprechers umwandelt. 
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30 1 

/^Wtre.^alband-Ubertragungssyste. .It eUe. Wandler 
^ 2U n, Uawandeln ..n.ohlich.r Sprache in eieKtrische Sx«- 
nale , gekennzeiehnet durch: 

35 ei ne Analysiervorrichtung (15), die elektrische Sig- 

ILe voa WandXer ClU) e.pfang, und •l"^ 1 -^™ 
Signalen abgibt, die eine Vie.lzahl .von^ip^^ »•» 
darstelien, die eine (j-e^chliche, Sti^ehara.teri- 
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sieren ; 



eine Speichervorrichtung (20) in der Signale ge- 
speichert sind, die eine Vielzahl gesprochener Wor- . 
ter darstellen; 

eine Worterkennungsvorrichtung (16), die mit der Ana- 
lysiervorrichtung (15) und mit der Speichervorrich- 
tung (20) zum Empfang von zumindest eines Teiles der 
Vielzahl von Signalen zum Vergleichen des empfangenen 
Teiles der Vielzahl von Signalen mit den gespeicher- 
ten Signalen verbunden ist, und Signale abgibt , die 
speziell gesprochene Worter darstellen, und 

eine Digi talumwandlungsvorrichtung , die mit der Wort- 
erkennungsvorrichtung (16) zum Empfang der spezifisch 
gesprochenen Worter darstellenden Signale verbunden 
ist, zum Umwandeln der empfangenen Signale in eine 
Digitalform mit einer Geschwindigkeit von weniger 
als 300 Bit pro Sekunde. 

Extremschmalband-tibertragungssystem nach Ansrpuch 1 , 
dadurch gekennzeichnet, daii die Analy- 
siervorrichtung (15) eine Analysierschaltung (32) fur 
eine linear vorhersagbare Codierung aufweist. 

Extremschmalband-ubertragungssystem nach Anspruch 1 
oder 2, dadurch gekennzeichnet, dafl die 
Worterkennungsvorrichtung (16) eine Vorrichtung (42, 
43, 45) zum Erkennen des Beginns und des Endes eines 
gesprochenen Wortes aufweist. 

Extremschmalband-ubertragungssystem nach einem der An- 
spruche 1 bis 3, dadurch gekennzeichnet, 
da/3 die Speichervorrichtung (20) Signale gespeichert 
hat, die eine Vielzahl von Wortern darstellen, die von 
einer Vielzahl unterschiedlicher Induviduen gesprochen 
wurden, und daft eine Sprechererkennungsvorrichtung ( 1 8 ) 
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mit der Speichervorr ichtung (20 ) und der Analysier- 
vorrichtung (15) vorgesehen 1st , die zumindest einen 
Teil der Vielzahl von Signal en von der Analysiervor- 
richtung (15) empfangt, die empfangenen Signale mit 
den gespeicherten Signalen vergleicht und Signale ab- 
gibt, die spezielle Worter darstellen, die von einer 
spezif ischen , der un terschiedlichen Individuen ge- 
sprochen wurden . 

Extremschmalband-Ubertragungssystem nach Anspruch 4, 
dadurch gekennzeichnet, daB die Sprecher- 
erkennungsvorrichtung (18) eine Schaltung zum Modifi- 
zieren gespeicherter Worter eines Individium nach einer 
Sprechererkennung aufweist . 

Extremschmalband-Ubertragungssystem nach Anspruch 5, 
dadurch gekennzeichnet, daB die Analy- 
siervorrichtung (15) eine Schaltung (32) zum Erhalten 
von LPC-Koef fizienten einer linearen vorhersagbaren 
Codierung und die Sprechererkennungsvorr ichtung (18) 
eine Schaltung zur Mittelwer tbildung der LPC-Koef f izien- 
ten aufweist. 

Extremschmalband-Ubertragungssystem nach Anspruch 6, 
dadurch gekennzeichnet; daft die Sprecher- 
erkennungsvorrichtung (18) eine Schaltung (20) zum Zu- 
ruckstellen einer Entscheidung bezuglich der Identi- 
tat des Sprechers aufweist, wenn er der Vergleich ei- 
nes gesprochenen Wortes mit gespeicherten Signalen, 
die eine Vielzahl von einer Vielzahl von unterschiedli- 
chen Induviduen gesprochenen Wdrtern darstellen, intier- 
halb eines vorbest immten Unsicherheitsber eichs liegt. 

Extremschmalband-ubertragungssystem nach einem der 
vorhergehenden Anspriiche, dadurch gekenn- 
zeichnet, daI5 die Signalumwandungsvorr ichtung 
(20) eine Einrichtung zum Umwandeln von Buchstaben 
jedes spezifischen gesprochenen Wortes in ASCII Digi- 
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talcodierungen fur eine ubertragung 

9. Extremschmalband-Ubertragungssystem nach einem der 
Anspruche 4 bis 7, gekennzeichnet durch 
eine Nachrichtenf ormatierungsvorrichtung (20), die mat 
der Sprechererkennungsvorrichtung (18) und der Wort- 
erkennungsvorrichtung (16) zum Formatieren jeder in 
den Wandler gesprochenen Nachricht in ein elektrisches 
Digitalsignal verbunden ist, das eine Vielzahl von 
■ Bits enthalt, die die Nachricht darstellen, sowie eine 
Vielzahl von Bits, die den Sprecher charakterisieren . 

10. Extremschmalband-Ubertragungssystem nach Anspruch 9, 

dadurch gekennzeichnet, dafl die Nachricht- 
f ormatierungsvorrichtung auch Bits verarbeitet, die 
Eigenschaften darstellen, die die Stimme des Sprechers 
charakterisieren . 



11. Extremschmalband-Ubertragungssystem nach Anspruch 10, 
2Q gekennzeichnet, durch eine Vorrichtung 

(20) zum ubertragen der Digitalsignale von der Um- 
wandlungsvorrichtung zu einer entfernt angeordneten 
Einheit (12), eine Vorrichtung (20) zum Empfangen von 
Digitalsignalen und einer Synthetisiervorrichtung (22) 
zum Umwandeln der Digitalsignale in die synthetisierte 
menschliche Sprache, die charakteristisch fur die Stim- 
me des Sprechers ist. 
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12. Extremschmalband-Ubertragungsverfahren , gekenn- 
zeichnet durch die Schritte 

Umwandeln von menschlicher Sprache in elektrische 
Signale , 

Analysieren der elektrischen Signale, um eine Vielzahl 
von Signalen abzugeben , die eine Vielzahl von Eigen- 
schaften darstellen, die eine menschliche Stimme 
charakterisieren / 
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1 ■ Speichern von Signalen, die eine Vielzahl von ge- 

sprochenen Wortern darstellen, 

Vergleichen zumindest einiger der Vielzahl von Sig- 
5 nalen mit den gespeicherten Signalen, um spezifische 

Worter in der menschlichen Sprache zu bestimmen und 
Signale abzugeben , die die spezifischen Worter dar- 
stellen , und 

10 Umwarideln der abgegebenen Signale, die spezifische 

Worter darstellen in eine Digitalform mit einer Ge- 
schwindigkeit geringer als 300 Bits pro.Sekunde. 
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13. Verfahren nach Anspruch 12, g e 
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n e t durch Erkennen des Beginns und des Endes jedes 
gesprochenen Worts vor dem Vergleichen. 

14. Verfahren nach Anspruch 12 oder 13, dadurch g e - 

k e n n z e i c h n e t, dafi das Speichern eine Spei- 
chern von Signalen umf afit , die eine Vielzahl von von 
einer Vielzahl unterschiedlicher Induviduen gesproche- 
nen Wortern darstellen und daft das Vergleichen das Zu- 
fiihren von Signalen umfafit , die reprasentativ sind 
fur das individuelle Sprechen der spezifischen Worter. 

15- Verfahren nach einem der Anspruche 12 bis 14, dadurch 
gekennzeich net, daft beim Analysieren 
Koeffizienten mit linearer vorhersagbarer Codierung 
erzeugt und die Koeffizienten vor dem Vergleichen ge- 
mittelt werden- 

16. Verfahren nach einem der Anspruche 12 bis 15, dadurch 
g e k e n n z.e i c h n e t, dalS das Vergleichen das 
Zuruckstellen einer Entscheidung bezuglich des induvi- 
duellen Sprechens umfafit, wenn der Vergleich eines 
gesprochenen Wortes mit gespeicherten Signalen, die fur 
eine Vielzahl von durch eine Vielzahl von unterschied- 
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lichen Induviduen gesprochenen Wortern sind, inner- 
halb eines vorbes t immt en Unsicherhei tsbereichs liegt. 

17- Verfahren nach einem der Anspruche 12 bis 16, g e - 

kennzeichnet durch Modifizieren gespeicher- 
ter Signale, die eine Vielzahl von von einem Induviduum 
gesprochenen Wortern darstellen, nachdem dieses spe- 
zielle Induviduumerkannt worden ist/ und gemafi der zu- 
letzt gesprochenen Sprache des Individuums. 



18. Verfahren nach einem der Anspruche 12 bis 17, dadurch 
gekenn-zeichnet, da£ eine* Vielzahl vorbe- 
stimmter Nachrichten gespeichert und dem Sprecher ei- 
ne Liste moglicher nachster Worter nach Erkennung 

15 des Endes eines Wortes angezeigt wird. 

19. Verfahren nach einem der Anspruche 12 bis 18, g e - 
kennzeichnet durch Formatieren der menschli- 
chen Sprache nach Umwandlung in die Digitalform in ein 

20 elektrisches Digi talsignal mit einer Vielzahl von Bits, 

die eine Nachricht darstellen und eine Vielzahl von 
Bits, die charakter istische Eigenschaf ten der menschli- 
chen Stimme darstellen, und ubertragen des elektrischen 
Digi talsignals zu einem entfernten Terminal. 

25 

20. Verfahren nach Anspruch 19, gekennzeich- 

n e t durch Empfangen eines von einem entfernten Ter- 
minal ausgesandten elektrischen Digitalsignals und Um- 
wandeln des empf angenen Signals in eine gesprochene 
30 Nachricht in einem synthe- 

tisierten Stimme, die angenahert die charakter istischen 
Eigenschaf ten des ur sprunglichen Sprechers am entfern- 
ten Terminal hat. 



35 
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F.vt.rgmschmalband-Ubertragungssystem 



20 



Beschr£ibung 



in iibertragungssystemen ist es aufterst wunschenswert , 
Nachrichten mittels Sprache auszutauschen . Anderersexts 

25 ist es erwunscht, digitale Schaltungen zu verwenden, da 
ein Grofiteil dieser Schaltungen auf einem einzigen xnte- 
grierten Schaltungschip untergebracht werden konnen , was 
den erforderlichen.Raum- und Energiebedarf . wesentlxch 
verringert. Digitale Darstellungen der menschlichen Spra- 

30 che erfordern jedoch im allgemeinen eine verhaltnismaBxg 
grofie Bandbreite, so da* sie fur viele Arten von Ubertra- 
gungsmedien, etwa Telef onleitungen oder dergleichen nxcht 
geeignet sind . Die Bit-ubertragungsgeschwindigkeit (Band- 
breite) von Nachrichten soli deshalb so niedrig wie mog- 

35 lich sein. Unter "Schmalband" wird ublicherweise exne 
. Bit-Obertragungsgeschwindlgkeit von etwa 2 000 Bxts pro 
Sekunde verstanden. Bekannte Vorrichtungen arbeiten uber 
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1 300 Bits pro Sekunde und alles, was darunter liegt, soil 
als "Extremschmalband " bezeichnet werden. 

Die vorliegende Erfindung betrifft ein Ext remschmalband- 
5 ubertraguhgssystem und ein ' Verf ahren zum Nachrichtenaus- 
tausch in einem extremen Schmalband, wobei menschliche 
Sprache in elektrische Signale umgewandelt und analysiert 
wird, so daft sich Signale ergeben, die Eigenschaf ten dar- 
stellen, welche das spezielle menschliche Sprechen charak- 
10 terisieren . Die Worter der Nachricht werden dann mit Wor- 
tern in einem Speicher verglichen, so daft das spezielle 
Wbrfc srikannt wird und falls erwunscht auch der spezielle Spre- 
cher, der dieses Wort ausgesprochen hat. Ein das speziel- 
le Wort darstellendes Digitalsignal , das eine ASCII- oder 
15 numerische Kodierung sein kann und die Position des Wor- 
tes im Speicher angibt , wird mit Digitalsignalen kombi- 
niert, die die Stimme des Sprechers charakterisieren, da- 
mit sich eine Nachricht ergibt mit einer Bi t-Geschwindig- 
keit wesentlich unter 300 Bit pro Sekunde , wobei die Nach- 
20 richt zu einem entfernten Endgerat ubertragen wird. Die- 
ses Endgerat synthe tisiert die menschliche Stimme, so daft 
die Nachricht derart ertont, als wenn die ursprungliche 
Stimme sprechen wurde . Verschiedene Verf ahren und Einrich- 
tungen dienen dazu, die korrekte Erkennung jedes Wortes 
25 und des speziellen Sprechers zu gewahr leisten einschlieli- 
lich einer Mittelwertbildung von LPC-Koef f izienten , Hin- 
ausschieben einer Entscheidung bezQglich der Identitat des 
Sprechers, wenn der Vergleich der gesprochenen mit den ge- 
speicherten Wortern innerhalb eines vorbest immten Unsicher- 
30 heitsbereichs liegt und Modifizieren beziehungsweise auf 
den neuesten Stand Bringen der gespeicher ten Worter eines 
individuellen Sprechers, nachdem dieser erkannt wurde. 



Der Erfindung liegt die Aufgabe zugrunde, ein neues und 
35 verbessertes Ext remschmalband-Uber tragungssystem anzuge- 
ben . 
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1 Ferner soil ein verbessertes Verfahren des Nachrichtenaus- 
tausches mittels Extremschmalband aufgezeigt werden. 

An der empfangenden Endstation soli eine Stimme syntheti- 
5 siert werden, die gleich derjenigen des urspriinglichen 
Sprechers ist. 

Die Erkennung des Sprechers soli auflerst genau erfolgen. 

10 ' Ein Ausf uhrungsbeispiel der Erfindung wird nachstehend 
unter Bezugnahme auf die Zeichnung beschrieben. Es zei- 
gen 

Figur 1 ein vereinf achtes Blockschaltbild eines 

Extremschmalbandnachrichten- oder tibertra- 
15 gungssystems der Ausf uhrungsf orm der Er- 

findung, 

Figur 2 ein Blockschaltbild der LPC-Analysierein- 

heit des Systems nach Figur 1 , 
Figur 3 ein Blockschaltbild der CPU-Einheit des 
20 Systems nach Figur 1 , 

Figur 4 ein Blockschaltbild der Worterkennungsein- 

heit des Systems nach Figur 1 , 
Figur 5 ein Blockschaltbild der Synthet isiereinheit 

des Systems nach Figur 1 , 
25 Figur 6 ein Flufidiagramm zur Veranschaulichung des 

Beginns und der Beendigung einer Wortidenti- 

fikation in der Wor terkennungseinheit der 

Figur 4, 

Figur 7 ein Flufidiagraram beziehungsweise ein Syntax- 
30 baum bestimmt fur militarische Zwecke und 

Figur 8 vier typische Anzeigebilder im Zusammenhang 
mit dem FluBdiagramm der Figur 7- 

Figur 1 zeigt das Extremschmalband-Ubertragungssystem ge- 
35 maiJ dem Ausf uhrungsbeispiel der Erfindung. Ein Ortstermi- 
nal 10 und ein entferntes Terminal 12 sind uber ein geeig- 
netes Mittel, etwa Telef onieitungen oder dergleichen, v.er* 
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1 bunde-n. Das Ortsterminal 10 weist ein Mikrofon 14 zum Um- 
wandeln der menschlichen Sprache in elektrische Signale 
in ublicher Art auf und ist mit einer LPC-Analysierein- 
heit 15 und einer Worterkennungseinheit 16 verbunden. 
5 LPC-Analyse bedeutet Analyse einer linearen vorhersagba- 
ren Kodierung. Die LPC-Analysiereinheit oder -schaltungs- 
platte 15 ist an eine zentrale Verarbeitungseinheit CPU 18 
angeschlossen, die wiederum mit einem Rechner 20 in Ver- 
bindung steht, der ein Tastenfeld, einen Austauschplatten- 

10 spe'icher ( Floppydiscspeicher ) und eine Sichtanzeige auf- 
weist. Die Worterkennungseinheit 16 ist mit dem Perso- 
nalrechner 20 und eine Synthetisiereinheit oder -schal- 
tungsplatte 22 ist ebenfalls mit dem Rechner 20 verbunden. 
Der Ausgang der Synthetisiereinheit 22 liegt an Kopfho- 

15 rem 23 oder einem anderen Wandler geeigneter Art zum Um- 
wandeln elektrischer Signale von der Synthetisierein- 
heit 22 in Schall- 

Figur 2 zeigt in groBerer Einzelheit ein Blockschaltbild 

20 der LPC-Analysiereinheit 15 in Form eines vollstandigen 
digitalen Sprachverarbeitungs systems,, wie es ira einzelnen 
in der noch schwebenden US-Patentanmeldung mit. der Be- 
zeichnung "Digital Voice Processing System" und dem Akten- 
zeichen 309 640 vom 8. Oktober 1981 beschrieben ist. Die 

25 LPC-Analysiereinheit ist nur ein Teil des in Figur 2 ver- 
anschaulichten Systems und ist im einzelnen in der 
US-PS 4 378 469 erlautert. Das vollstandige Verarbei- 
tungssystem ist deshalb beschrieben, well es einen Teil 
der LPC-Analysiereinheit 15 darstellt und der Syntheti- 

30 sierteil der Einheit T5 zur Synthetisierung der mensch- 
lichen Stimme verwendet werden kann , so daB sie am ent- 
fernten Terminal 12 wie das Sprechen eines Sprechers er- 
tont. Im vorliegenden System wird der Synthetisierer der 
Einheit 15 nicht verwendet. Der Fachmann erkennt jedoch, 

35 daft diese Einheit ohne weiteres an Stelle der Syntheti- 
siereinheit 22 eingesetzt werden kann. 
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1 GemaB Figur 2 werden Tonf requenzsignale von dem Mikro- 
fon It Qbar eine AVR-Sehaltung 25 mit automatischer Ver- 
starkungsregelung und ein Tief paWilter 26 einer Abtast- 
und Halteschaltung 28 zugefuhrt. Diese arbeitet .It einen 
5 Analog-ZDigitalwandler 30 zusammen, um fur jede durch die 
Abtast- und Haltescbaltung 28 durchgef Ubrte Abtastung eine 
12 Bit-Digitaldarstellung abzugeben. Diese Digitalwerte 
von dem A/D-Wandler 30 werden einer LPC-Analysiereinheit 32 
zugefuhrt, die in der vorgenannten Patentschrif t im ein- 
10 zelnen beschrieben 1st. Die LPC-Analysiereinheit 32 gibt 
mehrere Signale ab, die untersohiedliche Eigenschaf ten 
darstellen, die eine menschliche Stl». oharaktensieren, 
„ie den Tonhohenf requenzbereich und eine Abschatzung der 
vokalen Spurlange sowie wahlweise einsetzbare zusatzliche 
15 Elge nsohaften, wie die glottale Erregungsf orm in, Frequenz- 
bereioh und der Heiserkeitsgrad etc. Die Signale von der 
LPC-Analysiereinheit 3 2 u.fassen auch einen mS-Vurc*- 
sohnittswert und eine vorbestim-te Anzahl von LPC-Koe - 
zienten, namlich in diesem Ausf uhrungsbeispiel zehn. Alle 
20 dieS e Signale von der LPC-Analysiereinheit 32 werden uber 
eine Schnittstelle 3« der CPU 18 zur Speieh.rung und Ver- 
arbeitung zugefuhrt. Ein detaillierteres Blockseha tbiln 
d er CPU 18 ist in Figur 3 gezeigt. Bei diese. Ausfuhrungs- 
beispiel 1st die CPU 18 die i» Handel erhaltliche 
2B CMT-68K-CPU. Da die in Figur 3 veranschaulichte CPU 18 

im Handel erhaltlich ist, kennt der Fach.ann die Arbeits- 
weise. Da all. Blocke ausreichend definiert sind, soil de 
ren Funktion nioht i» einzelnen besehrieben werden. 

30 Obwohl die verschiedensten Einrichtungen als Worterken- 
nungseinheit 16 verwendet werden kSnnen, kommt bei oer 
vorliegenden Ausf uhrungsf orm die im Handel erhaltliche 
Einheit VRM102 zum Einsatz, die anband der Figur » erlau- 
tert wird. Die Tonf requenzsignale vom Mikrofon 1« werden. 

35 an den Audioeingang angelegt und Uber einen Vorverstar- 
k er 35 zum 16 Filter-Analysierer 37 geleitet. Der 16 Pi 
ter-Analysierer 37 fOhrt grundsatzlich die Analysierf unk 
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1 tion./der LPC-Analysiereinheit durch und der Fachmann er- 
kennt, dafi eine Worterkennungseinheit auch auf Signale der 
LPC-Analysiereinheit 15 basieren kann. Das Ausgangssignal 
des 16 Filter-Analysierers' 37 wird uber einen Gleichrich- , 
5 ter 39 an einen 8 Bit-Analog-/Digitalwandler 40 angelegt. 
Dieser A/D-Wandler 40 ist mit einem 6802 Mikroprozessor 42, 
einem 4K-RAM-Speicher 43 und einem 4K-R0M-Speicher 45 ver- 
bunden. Die Worterkennungseinheit 16 besitzt auch mehrere 
Anschlusse und Puffer zura Nachrichtenaustausch mit dem 
10 Personalrecnner 20, dessen Funktion bekannt ist und hier 
nicht im einzelnen beschrieben wird. 

Spektralamplituden des Gleichrichters 39 werden alle 5 ms 
durch den A/D-Wandler 40 ausgelesen. Das System miftt die 

15 Spektraldif ferenz zwischen dem augenblicklichen Spektrum 
und dem Hintergrundrauschen. uberschrei tet diese Dif fe- 
renz einen ersten Schwellenwert, dann markiert das System 
den moglichen Beginn eines Wortes und spektrale Abtastun- 
gen werden in dem "UNBEKANNTEN"-SchablbnenJspeicher 

20 4K-RAM-Speicher 43 auf geze ichnet . Nun wird die Empfind- 
lichkeit auf Spektralanderungen erhoht und neue Spektren 
werden immer dann auf gezeichnet , wenn eine gegen einen 
zweiten Schwellenwert gemessene geringfugige Anderung 
zwischen dem augenblicklichen und dem letzten Spektrum 

25 auftritt. Bei jeder signif ikan ten Anderung wird ein im 

Personalrechner 20 angeordneter Abtastzahler (NSAMP) auf- 
gezahlt. Diese Zahlung mufi ein Minimum von MINSAM, nam- 
lich 16 unterschiedliche Spektralf ormen erreichen, bevor 
das System ein Wort als gultig erklart, sonst wird der 

30 schall als Hintergrundrauschen bestimmt. Jeder 5 ms-Rahmen, 
der keine signif ikante Spektralanderung aufweist, ist ein 
Hinweis auf das Wortende. Vergehen 160 ms ohne Spektrums- 
anderung, dann wird das letzte Spektrum als wahrscheinli- 
ches Wortende erklart und eine Musterubereinstimmungspru- 

35 fung beginnt. Ein Flufid iagramm dieses Verfahrens ist in 
Fig. 6 veranschaulicht . 
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1 Der Ablauf beginnt mit einem Zustand 47, der rait "Ruhezu- 
stand, kein Wort" bezeichnet ist. Der Abtastzahler (NSAMP) 
beginnt bei Null zu zahlen und wenn die Differenz zwischen 
dem augenblickliehen Spektrum und dem Hintergrundrauschen 
5 den Schwellenwert t1 uberschreitet, dann lauft das Verfah- 
ren zum Zustand 48, der mit "moglicher Wortbeginn" be- 
zeichnet ist. Uberschreitet die Differenz zwischen dem 
augenblickliehen und dem letzten Spektrum nicht den zwei- 
,ten Schwellenwert t2 , dann geht der Ablauf zum Kreis 49, 

10 der mit "NSCNG = NSCHG + 1" bezeichnet ist. Ist die Zeit 
seit der letzten Spektralanderung kurz , dann kehrt der 
Ablauf zuruck zum Zustand 48, urn die Messung von Spektral- 
anderungen zwischen dem augenblickliehen und dem letzten 
Spektrum f ortzusetzen . Ist die Zeit seit der letzten Spek- 

15 tralanderung lang - bei dem vorliegenden Ausf uhrungsbe i- 
spiel etwa 160 ms - dann folgt im Ablauf der Zustand 50, 
der mit "mogliches Wortende" bezeichnet ist. Ist die Zah- 
lung in dem Abtastzahler geringer als 16, dann kehrt dor 
Ablauf zuruck zum Zustand 47 und beginnt erneut und die 

20 Spektralanderungen werden als zu kurz fur ein Wort be- 
trachtet, so daft sie Hintergrundrauschen darstellen mils- 
sen. Uberschreitet die Zahlung des Abtast zahlers den Wert 16, 
dann folgt der Zustand 52, • mit "Wortende , stelle Uber- 
einstimmung des Musters mit Ausgangswert her". Somit stellt 

25 das System fest, dafi ein Wort gesprochen wurde und es be- 
ginnt die Musterubereinstimmungspriifung. 

Sobald die Spektralanderung zwischen dem augenblickliehen 
und letzten Spektrum den Schwellenwert t2 uberschreitet, 

30 folgt Zustand 51 , der mit "Bringe signif ikantes Spektral- 
modell auf neuesten Stand" beschrieben ist. Ist der Ein- 
gangspuffer des Abtastzahlers NSAMP nicht gefiillt, dann 
kehrt der Ablauf zum Zustand 48 fur die nachste 5 ms-Ab- 
tastung zuruck. Wird der Eingangspuf f er des Abtastzahlers 

35 NSAMP bei einer grofien Spektralanderung gefiillt, dann geht 
der Ablauf direkt zum Zustand 50, wo dies als Wortende 
bestimmt wird und es folgt Zustand 52, in dem die Her- 
stellung der Musterubereinstimmung beginnt. Wird der Exn- 
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1 gangspuffer des Abtastzahlers NSAMP aufgrund eines kurzen 
Wortes nicht gefiillt , dann ergeben sich schlie&lich keine 
Spektralanderungen in den Abtastungen und der Ablauf geht 
zum Zustand 19 wie zuvor beschrieben. 

5 

Bei dem Terminal des vorliegenden Ausf iihrungsbeispiels 
ist eine vorbestimmte Anzahl von Sprechern autorisiert, 
das Terminal zu verwenden und Beispiele vorbest immter 
Worter und Phrasen, wie sie von jedem Sprecher gesprochen 

10 wurden, sind in dem Austauschscheibenspeicher des Rech- 
ners 20 gespeichert . . Die Worterkennungseinheit 16 dient 
zur UnterstUtzung bei der Sprechererkennung bei einer et- 
was vereinfachten Ausf Uhrungsf orm .'" Wenn ein spezieller 
Sprecher auf das System zugreift, identif iziert er sich 

15 sp rachlich durch Name, Stand und Personalnummer oder ir- 
gendeine andere Identif izierungszahl . Der Beginn und das 
Ende jedes Wortes wird von der Worterkennungseinheit 16 
festgestellt, die den Personalrechner 20 von dem gespro- 
chenen Wort in Kenntnis setzt . Eine elektrische Darstel- 

20 lung von LPC-Parameterdaten der LPC-Analysiereinhe it 15 
wird Uber den gesprochenen Bereich jedes Wortes gemit- 
telt, dann in der CPU 18 mit einem gespeicherten Beispiel 
vom Rechner 20 zur Obereinstimmung gebracht. Die Ergebnis- 
se der iibereinstimmungspruf ung werden mit einem Schwellen- 

25 wer t verglichen, urn eine Entscheidung uber die Identitat 
des Sprechers herbeizuf uhren . 

Wahrend der Benutzer das System weiter verwendet, erkennt 
der Rechner 20 Stellen in Satzen, wo die Anzahl moglicher 

30 nachster Worter verhaltnismaflig gering ist, wie dies jetzt 
beschrieben wird. An diesen syntakt ischen Knoten ladt der 
Personalrechner 20 Muster oder Schablonen, d.h. gespei^ 
cherte Modelle von Wortern aller Sprecher fur diese nach- 
sten moglichen Worter. Beim nachsten gesprochenen Wort er- 

35 kon nt die Worterkennungseinheit diese Tatsache und ver- 
gleicht die in das System geladenen Muster mit der Dar- 
stellung des gerade gesprochenen Wortes. Die Worterkennungs- 
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1 einheit zeigt das gesprochene Wort an der Sichtanzeige des 
Rechners 20 und auch den Sprecher an. Der Rechner 20 be- 
sitzt einen Abstimmzahler fur jeden der moglichen autori- 
sierten Sprecher. Der Zahler des angezeigten Sprechers 
5 wird mit jedem erkannten Wort aufgezahlt bis zu einem Ma- 
ximum von 25 und die Zahler aller nichtangezeigten Spre- 
cher werden abwarts gezahlt bis zu einer unteren Grenze 
von Null. Wird beispielsweise eine Geheiminf ormation an- 
gefordert, dann werden die Zahler gepruft und als identi- 

!0 fizierter Sprecher derjenige bestimmt, dessen Zahlung uber 
15 liegt, wahrend alle anderen Zahlungen unter 8 liegen 
mussen. Werden diese Bedingungen nicht erfullt, dann wird 
die Geheiminf ormation abgelehnt. Das System kann den Be- 
nutzer im weiteren Identif ikationsalgorithmus auffordern, 

15 beliebige Worter zu sprechen, bis ein eindeutiger Gewin- 
ner mit entsprechendem Abstand angezeigt wird, oder das 
System kann in seinem normalen Ablauf fortfahren und zu 
einem spateren Zeitpunkt die Information nochmals anfor- 
dern. Das System kann eine finderung des Sprechers inner- 

20 halb von maximal 10 Wortern erkennen. Auch 1st der Spre- 
cheridentifikationsalgorithmus dem Benutzer im allgemei- 
nen erkennbar und er weiB nicht, daiS seine Stimme wahrend 
des normalen Ablauf s analysiert wird. 

25 Die Verifikationssubsystemsoftware wird von den Austausch- 
platten des Rechners 20 geladen und dieses Laden wird 
durch Prufsummentests verifiziert. Als nachstes werden 
statistische Muster jedes bekannten Sprechers ebenfalls 
geladen. Wahrend der unbekannte Sprecher spricht , werden 

30 Langzeitstatistiken der LPC-Ref lexionskoef f izienten in 
Echtzeit Uber die letzten 30 Sekunden der Sprache berech- 
net. Diese Statistiken schliefcen eine Mittelwert- und 
Standardabweichung der Tonhohe und die ersten 10 Ref lexions- 
koef f izienten ein. Am Ende jedes Wortes, wie es durch die 

35 Worterkennungseinheit 16 bestimmt wurde, berechnet die 

CPU 18 die Mehalanobisabstandsmetrik zwischen dem unbekann- 
ten Wort und dem Muster jedes Sprechers. Der Mehalanobis- 
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1 abstand gewichtet den Abstand mit der Fahigkeit jedes 

Messungs-Eigenfektors, um den bekannten Sprecher von der 
allgemeinen Bevolkerung zu unterscheiden . Schliefilich in- 
formiert die CPU uber den Sprecher mit der besten uberein r 
5 stimmung und bestimmt die Genauigkeit der SchStzung durch 
den Mehalanobisabstand unter Vernal tnisbildung zur Stand- 
ardabweichung dieses Sprechers und durch das Verhaltnis 
zu der nachstbesten ubereinstimmung. Zweideutige Ergebnis- 
se d.h., wenn die ubereinstimmung innerhalb eines vorbe- 

10 stimmten Unsicherheitsbereichs liegt , bewirken, dafi das 
System eine Entscheidung zuruckstellt , wodurch die Ge- 
nauigkeit erhoht wird . SchlieBlich wird am Ende des Nach- 
richtenaustausches dem Sprecher die Moglichkeit gegeben, 
sein Stimmenmodell durch die zusammengesetzten Statisti- 

15 ken dieses Nachrichtenaustausches auf den neuesten Stand 
zu bringen. 

Die LPC-Analysiereinheit 15 und die CPU 18 besitzen auch 
eine Trainingsarbeitsweise bei der sich diese Statistiken 
eines gegebenen Sprechers ergeben und in der die Eigen- 
fektoren und Werte des Modells dieses Sprechers berechnet 
werden. Das System kann diese Daten zur Speicherung auf 
den Austauschplatten des Rechners 20 aufwarts laden. 
Wahrend die Worterkennungseinheit 16 als getrennte Ein- 
heit des Systems veranschaulicht wird, weis der Fachmann , 
dafi sie in einfacher Weise auch in die LPC-Analysierein- 
heit 15 Oder die CPU 18 eingefugt sein kann, so daB die- 
se Einheiten die Aufgaben der Erkennung des Beginns und 
Endes eines Wortes , des spezifischen Wortes und des Spre- 
chers durchfuhren konnen. Auch konnen Schablonen oder 
Wortmodelle, die allgemein reprasentativ fur jedes speziel- 
le zu erkennende Wort sind, an Stelle eines Wortmodells 
fur jedes von jedem Sprecher gesprochene zu erkennende 
Wort verwendet werden, wobei nur die speziellen Worter 
35 durch die Einrichtung erkannt wurden und nicht jedoch 
jeder spezielle Sprecher. 



Ein typisches Beispiel einer militarischen Verwendung 
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1 vorliegenden Systems sei nun in Verbindung rait den Fig. 7 
und 8 erlautert. Bei dieser speziellen Ausf Uhrungsf orm 
ist das System so aufgebaut , . daB es den Verwender mit ein- 
bezieht, ein geographische* Truppenmodell , Wachschub und 
5 geographische Umwelt auf den neuesten Stand zu bringen . 
Bei der grundsatzlichen Situation dieses Ausf Uhrungsbei- 
spiels fordert der Benutzer Information von dem Terminal 
an und, falls er richtig erkannt und gepruft wurde, wird 
, die Information von einer entfernten Quelle gegeben . Es 
10 sei fur dieses spezielle Ausf tihrungsbeispiel angenommen , 

da* das System urn einen halben Bildschirm nach links, rechts 
oben Oder unten schwenken kann, Oder nach Norden, Suden 
Osten Oder Westen bei n-Meilen, Es soil ferner die Fahig- 
keit besitzen, eine Fokusierte oder eine breitere Darstel- 
lung zu bieten, und zeigt wesentliche geographische Merk- 
male, etwa eines eines Landesstaates einer Stadt von Gren- 
zen, StraBen oder HQgel an. Bei der speziellen Anwendung 
des Systems werden 55 Worter und ein Syntaxnetzwerk mit 
semantischen Zuordnungen zu jedem Knoten des Netzwerks 
verwendet, wie dies Fig. 7 veranschaulicht . Ein Syntax- 
netzwerk leitet interaktiv die Auswahl von tnoglichen, 
nachsten Wortern von alien dem System bekannten Wortern 
im Kontext aller Satze , die das System versteht. Der Spre- 
cher kann jederzeit sagen "Loschen" urn einen neuen Satz 
zu beginnen, oder er kann sagen Ausloschen" um in ei- 
nem Satz ein Wort zu ersetzen. Worter wie »UH, THE" , Atem- 
gerausch und Zungenschlagen sind Modellworter , die ge- 
speichert werden und die von dem System absichtlich igno- 
riert werden. Das' System hilft dem Benutzer interaktiv,. 
wenn dieser spricht. Erwartet das System von ihm , daB er 
einen Satz beginnt, d.h., wenn die Worterkennungseinheit 
16 den Anfang eines ersten Wortes feststellt, dann listet 
es alle moglichen ersten Worter des Satzes auf, wie dies 
in Fig. 8 A angegeben ist. Nach Sprechen des ersten Wor- 
tes wird auf dem Schirm das f estgestellte Wort angezeigt 
und es werden alle m5glichen zweiten Worter gemaB Fig. 8B 
aufgelistet. Dies setzt sich fort bis zum Ende des Satzes, 
wenn die Daten fur eine ubertragung uber dem Extremschmal- 
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1 band Nachrichtenkanal zusammengesetzt werden. Der Sprecher 
kann mit der Zeit sehen, welche nachsten Worter erwartet 
werden. Der Rechner 20 uberwacht die Genauigkeit der Wort- 
ubereinstimmungen. Fallt irgendein Wort unter einen adap- 

5 tiven Schwellenwert , dann wiederholt die Synthetisierein- 
heit 22 den Satz und fragt nach fizierung vor der 

Durchfiihrung. Werden alle Worter ganz klar erkannt, dann 
gibt die Synthetisiereinheit22 den Satz nach Vervolls tand i- 
gung als Echo wieder, wahrend der Rechner die Nachricht 
10 aussendet ." 

Nach Verarbeitung jedes gesprochenen Wortes wird dieses 
in den Speicher itn Rechner 20 gebracht , wo die gesamte 
Nachricht in ein Digi talsignal fUr eine minimale Oder 

15 fast minimale Anzahl von Bits codiert wird. Die Worter 

konnen in codierter Form gespeichert werden, so 4afi sich 
der erforderliche Speicherplatz reduziert. Da das System 
eine vorbestimmte Anzahl von Wortern enthalt, die es er- 
kennen kann, d.h., eine vorbestimmte Anzahl von Wortmo- 

20 dellen Oder Mustern, so kann die Codierung in einer speziel- 
len Nummer fur jedes der Worter bestehen. So kann im Bei- 
spiel der Fig. 8 den Wortern "shift focus " die Nr. 12 
und dem Wort "south" die Nr. 18 zugeordnet werden, wahrend 
die Ziff. 2 durch die Nummer 21 dargestellt wird usw. Da 

25 diese Worter durch die gleichen Nummern in dem entfernten 
Terminal 12 dargestellt werden, wandetl der Personalrech- 
ner 20 diese Nummern in ein Digi talsignal um und ubertragt 
das Signal zu dem entfernten Terminal 12, wo das Signal 
in Nummern und dann in Worter zuruckgewandelt wird. 
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Ein zweites Codierungsverf ahren , das bei dem vorliegen- 
den Ausftihrungsbeispiel angewandt wird, besteht darin, 
jeden Buchstaben jedes Wortes in der ASC II-Codierung zu 
codieren. Dieses Codierungsverf ahren hat einige Vorteile, 
obwohl es einige wenige Bits mehr pro Wort benotigt. Ei- 
ner dieser Vorteile besteht darin, daft das ausgesandte 
Signal direkt zu den meisten heutigen elektrisch arbeiten- 
den Druckvorrichtungen ubertragen werden kann. In der ASC 




€ 3416238 
-tf- 
ii Codierung wird jeder Buchstabe durch 8 Bits dargestellt. 
Wenn somit die Musternachricht der Fig. 8 (shift focus 
south 22 miles" ist, dann ist die fur die ubertragung die- 
ser Nachricht in der ASC II Codierung er f orderliche Bit- 
zahl gleich 260. Werden 20 Bits zur Beschreibung von Ei- 
genschaften der Stimme des Sprechers verwendet und er- 
fordern Synchronisationsf ehlererkennung und Steuersignale 
weitere 30 Bits, dann ist die vollstandige Nachricht etwa 
310 Bits lang. Es ist somit moglich eine Nachricht mit ei- 
ner Lange von etwa 4 Sekunden und mit 310 Bits, d.h., mit 
etwa 77 Bits pro Sekunde zu ubertragen. 

Wird wie zuvor beschrieben ein Codierungssystem verwendet, 
bei dem jedem Wort eine spezielle Nummer zugeteilt ist, 
dann ist die Situation folgende: nimmt man an, dafi dxe 
gesprochene Nachricht eine von 100 moglichen Nachrichten- 
typen mit jeweils gleicher Wahrscheinlichkeit ist, dann 
sind 7 Bits erforderlich urn, urn den gr amat ikalischen 
Aufbau der Nachricht zu beschreiben. Werden 20 auswahl- 
bare Worter in dem System gespeichert die ausgewahlt wer- 
den konnen, urn verschiedene Positionen in der Nachricht 
einzunehmen, dann definieren 8 Bits welches Wort m je- 
der gewiinschten Position in der Nachricht verwendet wur- 
de Fur die Musternachricht, wie Sie zuvor angegeben wur- 
de namlich fur "shift focus south 22 miles" definieren 
7 Bits die Nachricht Syntax, M0 Bits definieren die 5 
auswahlbaren Wortern an Positionen innerhalb der Nachricht, 
wo eines von mehreren Wortern ausgewahlt werden kann , 
und etwa 20 Bits konnen die Eigenschaf t en der Stimme der 
Sprecher angeben, so da* sich eine Gesamtzahl von 67 Bits 
ergibt. Werden wiederum etwa 30 Bits fur die Synchronisa- 
tionsf ehlerkorrektur und Steuersignale angesetzt , dann 
umfafit die gesamte Nachricht etwa 97 Bits oder etwa 25 
Bits pro Sekunde. 

Die Synthetisiereinheit 22 des vorliegenden Ausfuhrungs- 
beispiels ist im Handel erhaltlich und wird von der Firma 
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Mikromint IncTals Mikrovoxsynthesizer vertrieben . Der 
Fachmann erkennt selbstverstandlich , daB die LPC-Analy- 
siereinheit 15 einen Synthetisierer aufweist , ( vgl . Fig. 2) 
und an Stelle der Synthetisiereinheit 22 verwendet, wenn 
die Sprechererkennung in dem System eingeschlossen ist 
und wenn es erwiinscht ist, daB die syntetisierte Stimme 
der Stimme des ursprunglichen Sprechers gleicht. Die 
Synthetisiereinheit 22 wurde jedoch hier beschrieben und 
zwar der Einfachheit und des besseren Verstandnis halber. 
Von der Beschreibung der Synthetisiereinheit 22 ergibt sich 
fur den Fachmann ein vollkommenes Verstandnis der Arbeits- 
weise des in der LPC-Analysiereinheit 15 vorhandenen Syn- 
thetisierers . Eine vollstandigere Beschreibung des Syntheti- 
sierers der in der LPC-Analysiereinheit 15 enthalten ist, 
ergibt sich aus der zuvor genannten Patentanmeldung und 
aus der US-Patentanmeldung mit der Bezeichnung "Speech 
Synthesizer With Smooth Linear Interpolation", mit dem 
Aktenzeichen 267 203, eingereicht am 26 Mai 1981. 

Die Synthetisiereinheit 22 ist ein f reistehender inteligen- 
ter Mikroprozessor , der ASCII Text in gesprochenes Englisch 
umwandelt. Sie besteht aus einem M 65 02 Mikroprozessor 55, 
einer 9600 BPS UART-Teinheit 57 als serielle Schnittstelle 
einem RAM-Speicher 59 mit einer Speicherkapazitat von 2K 
Bits einem loschbaren, programmierbaren Nur-Lesespeicher 
EPR0M 61 mit 8 K-Bits, einem SC01 Votrax-Stimmsyntetisier- 
er 63, einem taktenden und programmierbaren Teller 65 und 
verschiedenen Puffern, Steuerungen und Verstarkern. Die 
Synthetisiereinheit 22 verwendet einen Algorythmus , der 
grammatikalisch Serieneingangsdaten in Worter umsetzt, 
dann die englischen Aussprac heregeln verwendet und einen 
Lautstrom aus dem ausgesprochenen zu erzeugen. Dieser 
Lautstrom steuert dann den Sprachsynthefcisierer 63- Der 
Sprachsynthetisierer 63 besitzt einen ROM-Speicher der 
Laute als eine Folge von 1 bis 4 Tonen in statigem Zu- 
stand von spezifischer Dauer und mit spezifischem Spek- 
trum erzeugt. Die Funktion der Synthetisiereinheit 22 be- 
ruht auf den Buchstaben zu Laut-Umsetzungsregeln , die 
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'in dem Mikroprozessor 55 angewandt werden , sowie auf der 
Laut-Sprachensyntese in dem Sprachsynthetisierer 63- Der 
Mikroprozessor 55 liest bis zu 1500 Zeichen in seinen in- 
ternet! Seitenpuffer von der seriellen Schni t tstelle 57.. 
Er identifiziert Phrasengruppen durch ihre Punktuation 
und Worter durch ihre Zwischenraumbegrenzer . Er verwendet 
die Phrasengruppengrenzen urn eine geeignete deklarative 
Oder fragende Tonhohen- und Dauerbeugung auf die Phrase 
anzuwenden. Pro Wort wird jedes Zeichen von links nach 
rechts uber das Wort abgetastet. Wird ein Zeichen gef wi- 
den, bei dem die linken und rechten Kontexterf ordernisse , 

(benachbarte Zeichen) erfullt sind, dann wird die erste 
anwendbare Regel fur das Zeichen verwendet, urn es in ei- 
nen Laut umzusetzen . 

Der Sprachsynthetisierer 63 1st ein CMOS-Typ , der aus einem 
digitalen Codeumsetzer und einem elektronischen Modell der 
Vokalspur besteht. Intern ist eine Lautsteuerung vorgesehen, 
die eine 6-Bit-Laut- und 2-Bit-Tonhohencodierung in eine 
Matrix von spektralen Parametern umsetzt , die das Vokal- 
spurmodell zur Synthetisierung der Sprache einstellt. Die 
Ausgangstonhohe der Laute wird durch die Frequenz des ge- 
getakteten Teiler 65 abgegebenen Taktsignal gesteuert . Fei- 
ne Schwankungen der Tonhohe konnen induziert werden, urn 
eine Beugung hinzuzuf ugen , was verhindert, dafi die synthetic 
sierte Stimme monoton und maschinell klingt . Wahrend der 
vorliegende Algorrhythmus einen englischen Text in Sprache 
umwandelt, 1st es fur den Fachmann verstandlich , daft die 
Sprachalgorhythmus genauso in anderen Sprachen geschrie- 
ben sein konnen. 64 Laute definieren die englische Sprache 
und jeder Laut wird durch eine 6-Bit-Codierung gekennzeich- 
net, die von dem Mikroprozessor 55 an den Sprachsyntheti- 
sierer 63 angelegt wird. Die Lautsteuerung setzt dann die 
Bits in die zuvor erwahnten Spektralparameter 
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Damit die synthetisierte Sprache moglichst gut dem identi- 
fizierten ursprunglichen Spreeher gleicht , konnen verschie- 
dene Codierungen senderseitig zu dem empfangenden Gerat 
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1 ubertragen werden, wobei Daten uber die spezielle Aus- 
sprache des Sprechers beziiglich dieser Worte beinhalten. 
Dies kann sehr einfach dadurch erreicht werden, dafi eine 
Sprecheridentif ikat ionscodierung ausgesandt wird, die der t 

5 Empfanger zum Aufsuchen der Vokalspurlange und des mittler- 
en Tonhohenbereichs verwendet. Alternativ dazu kann der 
Sender auch Polynomkoef f izien ten aussenden , die die Tonhohen- 
kontur tiber der Lange des Satzes beschreibt , sowie einen 
Vokalspurlangenmodif izierer . Diese Polynomkoef f izienten 
10 ermoglichen, daft der richtige Tonhohenbereich , Tonhohen- 
abfall und die Betonung mit sehr wenigen Bits ubertragen 
werden. Der Vokalspurlangenmodif izierer erraoglicht es 
dem Syntetisierer eine Polynominterpolation der LPC-Re- 
f lektionskoeff izient durchzuf uhren , wodurch die 
15 Vokalspur langer oder kurzer gemacht werden kann als bei 
dem gespeicherten Muster, das bei den Buchstaben- Zu- Ton- 
Regeln verwendet wird. 

Es wurde somit ein Ext remschmalband-Uber tragungssyst em 
20 offenbart, bei dem jedes Terminal menschliche Stimme in 
Digitalsignale mit einer Geschwindigkei t von. weniger als 
300 Bits pro Sekunde umsetzt. Das Terminal besitzt fer- 
ner die Fahigkeit Digitalsignale zu empfangen, die re- 
prasentativ fur eine menschliche Stimme sind , und die 
25 menschliche Stimme mit den gleichen Eigenschaf t en wie 

die des ursprunglichen Sprechers zu synthetisieren . Aufier- 
dem besitzt jedes Terminal die Fahigkeit Worter und den 
speziellen Sprecher mit sehr hoher Genauigkeit zu erken- 
nen . 
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